The ABC of Computational Text Analysis
#2 Text as Data
Outline
- recap + reading
- methodological foundation 😬
- first computational text analysis
- kurzfristige Umstellung auf Zoom
- Diskussion Survey Seminarerwartungen
- 3/4 mit R-Erfahrung, wenige mit Python und Kommandozeile
- SoCom Leute mit Inhaltsanalyse, keine Daten in Aussicht
- Einführungskurs, aber komplementäres Wissen und Pointers für Fortgeschrittene
- Skills für Seminar/BA-Arbeiten
- allgemeine Programmier- und Computerkenntnisse
- Fragen zu Inhalt/Website?
- Diskussion letzte Sitzung + Paper
- Hauptteil: Bedeutung/Grundlage von Textanalyse
- Auf welcher methodischen Grundlage steht das Feld?
- Qualitativer Anteil gegenüber letzten Sitzung herausheben
- zweite Lektion: erste Textanalyse
- einfach, aber mächtig
Recap last Lecture
computer as …
- … an intelligent device
- … a tool for a new social science
datafication
- abundance of data
- exploit new form of data
- Technologie verändert Welt. Seit immer, erneut grosser Schritt nach Industrialisierung.
- Computer als Werkzeug/interaktiver Partner
- nehmen an sozialen Prozessen teil -> wie verändert sich das Soziale/Ökonomische (Wissenschaft, Arbeit, Jobmarkt, Benachteiligung)?
- für CSS: Daten wichtiger als ML
- Daten sind da -> erst Programmieren ermöglicht Auswertung
Reading
Semiotic Triangle
Loose coupling between
- World
- Cognition
- Language
- Was ist Sprache?
- Keine Philosophie-Vorlesung
- technisch auch von Bedeutung
- Versuch der Einheit: Ding, Konzept und Wort
- keine direkte Beziehung zwischen Symbol & Gegenstand
- keine Eineindeutigkeit wie in Datenbanken –> schwierig für Computer
- identische Personen- und Ortsnamen
- umfasst Früchte auch Hülsenfrüchte?
- jede Ecke kann wechseln
- Gleiches heisst anders, anderes heisst gleich
- keine Eineindeutigkeit wie in Datenbanken –> schwierig für Computer
Language shapes the way we think,
and determines what we can think about.Benjamin Lee Whorf
- zweiteilige These umstritten (Sapir-Whorf-Hypothese)
- Sprache formt das Denken
- unabhängig der Determination: überragende Bedeutung für das Soziale
- Inuit-Anekdote zu Schnee bedingt durch Grammatik
- Sprache ist das Soziale schlechthin
- Vermittlungsmedium
- weitere Formen: Zeichnen, Mathematik, Fotos
- wenn nicht kommuniziert, dann gesellschaftlich ohne Bedeutung (aber nicht unbedingt unvorstellbar)
- Wörter sind Unterscheidungen
- Link zu Luhmann
- Aktuelles Beispiel Ukraine-Krieg
- Konflikt vs Krieg (Gewalt) vs Invasion (asymmetrisch), militärische Operation
- Definitionskampf ist gut erkennbar von Russland, aber auch allen anderen
Working with Texts
A micro and macro perspective I
individual cases vs. collective trends
- Nun klar, wieso Textanalyse wichtig, aber welche Herangehensweise?
- Traditionell
- Inhaltsanalyse, close reading
- Einzeldokumente
- lange Zeit alternativlos
- computergestützte Textanalyse
- NLP, distant reading
- Textsammlungen
- Rauszoomen bringt mehr/neues Verständnis, nicht nur Reinzoomen
- Methodik ändert evtl. Fragestellung
- NLP: nicht Individuum, sondern Diskurs/Gesellschaft/Gruppe
- strukturelle Beschreibungen und Kultur/Stimmung
A micro and macro perspective II
scalability vs. abstraction
- je ein Problem je Approach
- close: nicht skalierbar
- ist das generalisierbar?
- distant: kontextlos, da Narrativ/Einzelheiten verloren gehen
- verlieren wer/was/wo/wie/wann/warum
- was bedeuten Zahlen? Verweis: BIP (informelle Wirtschaft)
- close: nicht skalierbar
From micro to macro 📊
…and back again 📑
- Lösung: Vogelperspektive, dann Eintauchen und zurück
- Gute Data Science besteht aus guter Kenntnis von Daten
- Grösser nicht immer besser
Two Research Paradigms
data exploration vs. hypothesis testing [@Evans2016]
- add nuance
- develop new narratives
- verify hypothesis
- genauere Einordnung: exaktere Epochenbestimmung
- Agnostik/Induktion ausnutzen für anderes Narrativ
- data-driven Diskurs ordnen
- Modelvorhersagen zu Kausalitätsaussagen
- z.B. Klimawandel Berichterstattung -> Erfolg grüne Partei?
- Metadaten zu Kommunikationsflüsse nötig
Numbers do not talk 😶
Thus, quantification and qualitative analysis go well together.
- alter Konflikt Quali/Quanti
- beide Lager kritisch gegenüber NLP
- zu wenig rigoros, zu naiv mangels Kontext
- Zahlen sprechen nicht für sich selbst
- komplementär
Text as Data
- synonymy
- ambiguities
- compositonality of meaning
- discrete symbols
- unstructured, messy data
[see also @Grimmer2013]
- Link zu semiotischem Dreieck
- Text inhärent schwierig
- herausfordernste Datenform
- Front der AI
- Wörter = diskrete Symbole
- nominales Skalenniveau
- compositional
- grosse Mäuse, kleine Elefanten
- unstrukturiert
- anders als Tabelle/Datenbank
- unterschiedliche Datenformate
Unstructured Text? 🤔
collection > documents > paragraphs > sentences > words
Data Formats
In-class Task: File Types
- What file formats do you know?
- Open files of different types in a text editor.
Which ones look good?
- Problem ist nicht wirklich der Text, sondern das Format
- alle möglichen Filetypen, nicht nur Text
- zip/tar, exe, dmg/iso, jpg/png/gif
- öffnen von Editor?
- Dateiendungen aktiviert auf Computer?
File Formats
- machine-readability
- raw: txt, csv, tsv
- formatted: docx, pdf, html, xml
- open vs. proprietary
- digital sustainability
- am besten raw + open
- Papier altert langsamer als Software!
- Pause
Let’s Dive into it! 💦
Counting ngrams
Google Ngram Viewer [@Michel2011]
- historical perspective with ngrams
- >5.2 million books
- rise and fall of cultural ideas and phenomena
- Google Books
- indexiert ganze (Uni-)Bibliotheken
- in 2009 mehr als 4% aller veröffentlichter Bücher
- See how ideas evolve/change over time
- y: relative Worthäufigkeiten
- x: Bücher indexiert nach Publikationsjahr
- publiziert in Science, kein klassiches SoWi Journal
- disziplinare Grenzen brechen auf
In-Class Task: Investigate the Environmental Discourse
What other terms have been used to describe nature?
- e.g. environment
What environmental issues are debated the strongest? When?
- e.g. nuclear power plant
Are there any differences between languages?
- i.e. similar words with non-equivalent curves over time
🎯 What do you conclude from your observations?
- Dauer: 20 Minuten
- issues described by whom?
- Herumgehen + selbst ausprobieren
- Wikipedia nutzen
Refine your Queries
check out case-sensitiveness, wildcards (*) and operators 🤓
| Operator | Description |
|---|---|
+ |
sums multiple expressions into one to aggregate trends. |
- |
subtracts the expression on the right from the expression on the left, giving you a way to measure one ngram relative to another. |
/ |
divides the expression on the left by the expression on the right, which is useful for isolating the behavior of an ngram with respect to another. |
* |
multiplies the expression on the left by the number on the right, making it easier to compare ngrams of very different frequencies. (Be sure to enclose the entire ngram in parentheses so that * isn’t interpreted as a wildcard.) |
Ngram ‘pay attention’
- major shift: “call attention” -> “pay attention”
- externer Faktor (call) vs. aktives Verhalten (pay)
- pay attention as a form of currency
- Zusammenhang? Aufmerksamkeitsökonomie, Individualismus
- “if you don’t want to call attention to yourself by giving an incorrect answer, then you should probably pay attention in class.”
Remember 👍
Has the language evolved over time or the social perception?
Both, most likely.
Similarly, language may vary across regions and communities.
- Grosse Frage ist
- Wird das gleiche anders benannt?
- Geht es um was anderes?
- Link zu Odgen Dreieck von nicht fixer Beziehungen
No Culturomics but Meaning-Making
phenomena in collective memory
- semantic drifts (meaning)
- lexical shifts (frequency)
Read, read, read to complement stats with context!
Änderung von kontextueller Verwendung oder Wortfrequenz
Eigentum hat sich etabliert, Religion degeneriert
Patterns EN
- dessert=>*_ADJ
- *=>public_ADJ
- *=>personal_ADJ
Pattern DE
- Kulturen=>*_ADJ
- Kinder=>*_ADJ
only entire words, yet: _INF
Questions of Interpretation
possible reasons of decreasing frequency
- loosing interest
- becoming an established fact
- new reference
The Great War→World War I
- selection of data sources
- numbers don’t talk
- Kommunikation
- Weisse Schafe nicht erwähnenswert, nur schwarze
- Nachrichtenwerte
- Themenkonjunkturen
- einzelne Wörter bilden schlechte Evidenzbasis
A Word of Caution
The unknowns of Google Ngram Viewer
- index of books
- genre, authors, quantity
- artifacts of digitalization
🤓 use better alternative: bookworm HathiTrust
- Google: ~4% of all books ever published
- Compared to the 2009 versions, the 2012 and 2019 versions:
- more books, improved OCR, improved library and publisher metadata.
- ngrams across page boundaries, no ngrams across sentence boundaries
- rule-based tokenization
- wissenschaftlicher Standard
- Ziel: nicht Unfehlbarkeit, sondern methodisch nachvollziehbar und kritisierbar
- zitierfähig
- HathiTrust
- curated collection
- filter by meta data
Interacting with Data
It is a lense, not a map.
- Lens / transformation like biology/physics
- allerdings keine Labordaten
- Soziales ohne ceteris paribus
- not just mapping but interacting
- Daten erlauben neue Sicht
- deshalb nicht CS überlassen
Prepare your System
- backup files + update system 🚧
- start installation with this guide 👷
- Nicht riskanter als anderes. Ein Backup gehört dazu, ein Datenverlust sicher nicht.
- Unklarheiten/Probleme unbedingt zurückmelden
- Wer hat Python schon installiert? Welches OS/Installer?
New room 🏛️
- seminar in lecture hall 5
- as of 17 March onwards